阿里妈妈技术团队 6 篇论文入选 CIKM 2021
关于 CIKM
CIKM(The Conference on Information and Knowledge Management ) 是由ACM主办的信息检索和数据挖掘等领域的国际顶级会议,在相关领域享有较高的学术声誉。今年将于11月1日 - 5日在线上召开。
近日, CIKM 2021 公布了接收结果。本次会议共收到1251篇长文(Full Paper)和626篇短文(Short Paper),均创下CIKM投稿量的历史记录。其中,271篇长文和177篇短文被大会接收,录取率分别为21.7%和28.3%。
阿里妈妈论文概述
▐ Heterogeneous Graph Neural Networks for Largescale Bid Keyword Matching
摘要:近年来,在线广告在消费者侧的大量工作受到了广泛关注,旨在通过挖掘用户的历史行为模式、搜索词意图以及关键词竞价来呈现个性化的广告内容。而在广告平台的另一侧——广告主侧,广告主营销优化工作在广告系统中也扮演着非常重要的角色。对于搜索广告,关键词推荐(Keyword Recommendation)就是其中一个面向广告主的核心推荐服务。既有的关键词推荐方法仅考虑了点击或文本相似等单一种类的关系建模该任务,而忽略了额外的辅助关系信息(比如广告/关键词与普通商品间的关系)。如何从不同对象间的复杂关系中学习丰富和鲁棒的表示向量十分关键。另一方面,对于通常缺乏足够效果反馈数据的新广告,进行高质量的推荐也非常重要。
为了应对这些挑战,我们提出了HetMatch,一种基于异质图神经网络(HGNN)的关键词推荐模型。通过引入多层次的GNN结构,HetMatch能在微观和宏观层面融合和增强不同类型的辅助关系信息,以更全面和鲁棒地对广告和词进行表征。此外针对冷启动问题,我们采用了多视图框架,使模型能通过多视图任务引入额外的新广告样本。我们通过直通车的工业数据集离线验证了 HetMatch的有效性,并在直通车多个关键词推荐工具上进行了AB 实验,多个业务指标(如消耗与采纳率)相比于基准算法都有显著提升。目前该模型已在直通车全量部署,服务于多个关键词推荐工具。
▐ One Model to Serve All: Star Topology Adaptive Recommender for Multi-Domain CTR Prediction
摘要:传统的广告/推荐CTR模型一般使用单个场景的数据训练并服务单个场景。但是对于阿里巴巴这样的大规模商业平台,平台经常需要为大量的场景提供CTR预估能力。不同的场景具有相似的用户群体和广告集合,但每个场景也有一些场景特定的用户群体和广告集合。在这种情况下,为每个场景单独训练一个模型忽视场景之间的相似性导致效果变差。另一方面,简单的共享模型很难捕捉不同场景的差异性。为了更好地利用不同场景的数据,我们提出了星型拓扑结构的STAR模型。在STAR模型里,每个场景的网络包含两部分,共享的中心网络以及场景私有的网络。对于每个场景,最终的网络通过共享和私有网络参数相乘得到。通过这种形式,STAR同时建模了场景的相似性和差异性。STAR已经在2020年在阿里妈妈展示广告系统上线,取得了8.0%的CTR提升和6.0的RPM提升。
▐ Binary Code based Hash Embedding for Web-scale Applications
▐ Learning Effective and Efficient Embedding via an Adaptively-Masked Twins-based Layer
摘要:在深度推荐模型中,ID类特征的表示学习是至关重要的。其中,每一个特征值将会被映射成一个特征向量。对于同一个特征域的不同特征值,传统的特征表示学习方法会固定对应特征向量的维度大小。这样一种设置统一维度的模式对于表示学习以及对应向量存储而言,都是次优的。尽管,现有的方法尝试从基于规则或者网络搜索的角度去解决这个问题,这些方法需要额外的人工知识或者不易训练,且对于特征向量的热启动也不友好。因此,在本文中,我们提出一种新颖并且高效的特征维度选择方法。具体而言,我们在每一个表示层后面,设计了一个孪生的自适应掩码层(AMTL)来去除每一个特征向量中不需要的维度。这样一种掩码的方式能够灵活的应用在各个模型中,很好的支持了模型特征向量的热启动。大量实验结果表明,所提方法在模型精度上相比于其他方法取得了最好的效果,且同时节省了60%存储开销。
▐ AutoHERI: Automated Hierarchical Representation Integration for Post-Click Conversion Rate Estimation
摘要:广告和推荐系统中,转化率(Conversion Rate,CVR)预估是一个重要任务,在排序、智能出价等功能中发挥着关键作用。现有方法利用用户行为序列(如展现->点击->转化)来联合学习多个预估任务,实现全空间CVR预估。为进一步探究用户行为序列中的层次关联以提升CVR预估性能,我们提出AutoHERI:基于层次表示自动聚合的CVR预估模型,将前序任务中的特征表示聚合连接到后序任务以提升其表示学习,自动搜索最优的连接结构来使模型学习有效的特征聚合模式。同时,考虑到不同场景中的聚合模式都不尽相同,AutoHERI通过One-shot 自动搜索来提高搜索效率,保证面向不同场景时的复用性。我们在大规模真实数据集上的离线/在线实验结果都验证了AutoHERI的优越性能。
▐ SMAD: Scalable Multi-view Ad Retrieval System for E-Commerce Sponsored Search
END